## [1] "/home/benetti/git/udacity/NDDataScientist/br-machine-learning/projects/R"
## 'data.frame': 1599 obs. of 14 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : Ord.factor w/ 6 levels "3"<"4"<"5"<"6"<..: 3 3 3 4 3 3 3 5 5 3 ...
## $ rating : Ord.factor w/ 3 levels "ruim"<"medio"<..: 2 2 2 2 2 2 2 3 3 2 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality rating
## Min. : 8.40 3: 10 ruim : 63
## 1st Qu.: 9.50 4: 53 medio:1319
## Median :10.20 5:681 bom : 217
## Mean :10.42 6:638
## 3rd Qu.:11.10 7:199
## Max. :14.90 8: 18
## Warning: Removed 8 rows containing non-finite values (stat_boxplot).
## Warning: Removed 9 rows containing missing values (geom_point).
## Warning: Removed 8 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
## Warning: Removed 21 rows containing non-finite values (stat_boxplot).
## Warning: Removed 22 rows containing missing values (geom_point).
## Warning: Removed 21 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
## Warning: Removed 1 rows containing missing values (geom_bar).
## Warning: Removed 23 rows containing non-finite values (stat_boxplot).
## Warning: Removed 23 rows containing missing values (geom_point).
## Warning: Removed 23 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
## Warning: Removed 25 rows containing non-finite values (stat_boxplot).
## Warning: Removed 26 rows containing missing values (geom_point).
## Warning: Removed 25 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
## Warning: Removed 24 rows containing non-finite values (stat_boxplot).
## Warning: Removed 24 rows containing missing values (geom_point).
## Warning: Removed 24 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).
## Warning: Removed 2 rows containing missing values (geom_point).
## Warning: Removed 2 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
## Warning: Removed 6 rows containing non-finite values (stat_boxplot).
## Warning: Removed 6 rows containing missing values (geom_point).
## Warning: Removed 6 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
## Warning: Removed 1 rows containing non-finite values (stat_boxplot).
## Warning: Removed 6 rows containing missing values (geom_point).
## Warning: Removed 1 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
Esta estrutura apresenta 1599 linhas e 13 atributos, onde possui um atributo que fora adicionado ‘rating’ e um categorico ‘quality’, os demais campos descrevem as propriedades do vinho a ser estudada, onde estes campos são todos numéricos.
É o atributo ‘quality’, o qual pretendo identificar quais fatores afetam este atributo que determina qual é a qualidade do vinho
Devido a distribuição mais normalizada, eu acredito que deve ser fixed.acidity, volatile.acidity, densidade e Ph, onde último pode adicionar efeitos sobre os atributos.
Sim, atributo rating
Sim, foram encontrados picos de valores elevados como no atributo fixed.acidity. Para remover os outliers, fora feito um rescaling das imagens.
##
## ---------------------------------------------------------------------------
## fixed.acidity volatile.acidity citric.acid
## -------------------------- --------------- ------------------ -------------
## **fixed.acidity** 1 -0.2561 **0.6717**
##
## **volatile.acidity** -0.2561 1 **-0.5525**
##
## **citric.acid** **0.6717** **-0.5525** 1
##
## **residual.sugar** 0.1148 0.001918 0.1436
##
## **chlorides** 0.09371 0.0613 0.2038
##
## **free.sulfur.dioxide** -0.1538 -0.0105 -0.06098
##
## **total.sulfur.dioxide** -0.1132 0.07647 0.03553
##
## **density** **0.668** 0.02203 **0.3649**
##
## **pH** **-0.683** 0.2349 **-0.5419**
##
## **sulphates** 0.183 -0.261 **0.3128**
##
## **alcohol** -0.06167 -0.2023 0.1099
##
## **quality** 0.1241 **-0.3906** 0.2264
## ---------------------------------------------------------------------------
##
## Table: Table continues below
##
##
## ------------------------------------------------------------------------------
## residual.sugar chlorides free.sulfur.dioxide
## -------------------------- ---------------- ------------ ---------------------
## **fixed.acidity** 0.1148 0.09371 -0.1538
##
## **volatile.acidity** 0.001918 0.0613 -0.0105
##
## **citric.acid** 0.1436 0.2038 -0.06098
##
## **residual.sugar** 1 0.05561 0.187
##
## **chlorides** 0.05561 1 0.005562
##
## **free.sulfur.dioxide** 0.187 0.005562 1
##
## **total.sulfur.dioxide** 0.203 0.0474 **0.6677**
##
## **density** **0.3553** 0.2006 -0.02195
##
## **pH** -0.08565 -0.265 0.07038
##
## **sulphates** 0.005527 **0.3713** 0.05166
##
## **alcohol** 0.04208 -0.2211 -0.06941
##
## **quality** 0.01373 -0.1289 -0.05066
## ------------------------------------------------------------------------------
##
## Table: Table continues below
##
##
## -----------------------------------------------------------------------------
## total.sulfur.dioxide density pH
## -------------------------- ---------------------- ------------- -------------
## **fixed.acidity** -0.1132 **0.668** **-0.683**
##
## **volatile.acidity** 0.07647 0.02203 0.2349
##
## **citric.acid** 0.03553 **0.3649** **-0.5419**
##
## **residual.sugar** 0.203 **0.3553** -0.08565
##
## **chlorides** 0.0474 0.2006 -0.265
##
## **free.sulfur.dioxide** **0.6677** -0.02195 0.07038
##
## **total.sulfur.dioxide** 1 0.07127 -0.06649
##
## **density** 0.07127 1 **-0.3417**
##
## **pH** -0.06649 **-0.3417** 1
##
## **sulphates** 0.04295 0.1485 -0.1966
##
## **alcohol** -0.2057 **-0.4962** 0.2056
##
## **quality** -0.1851 -0.1749 -0.05773
## -----------------------------------------------------------------------------
##
## Table: Table continues below
##
##
## -------------------------------------------------------------------
## sulphates alcohol quality
## -------------------------- ------------ ------------- -------------
## **fixed.acidity** 0.183 -0.06167 0.1241
##
## **volatile.acidity** -0.261 -0.2023 **-0.3906**
##
## **citric.acid** **0.3128** 0.1099 0.2264
##
## **residual.sugar** 0.005527 0.04208 0.01373
##
## **chlorides** **0.3713** -0.2211 -0.1289
##
## **free.sulfur.dioxide** 0.05166 -0.06941 -0.05066
##
## **total.sulfur.dioxide** 0.04295 -0.2057 -0.1851
##
## **density** 0.1485 **-0.4962** -0.1749
##
## **pH** -0.1966 0.2056 -0.05773
##
## **sulphates** 1 0.09359 0.2514
##
## **alcohol** 0.09359 1 **0.4762**
##
## **quality** 0.2514 **0.4762** 1
## -------------------------------------------------------------------
## Warning: Removed 84 rows containing non-finite values (stat_boxplot).
## Warning: Removed 84 rows containing non-finite values (stat_summary).
## Warning: Removed 84 rows containing missing values (geom_point).
## Warning: Removed 41 rows containing non-finite values (stat_boxplot).
## Warning: Removed 41 rows containing non-finite values (stat_summary).
## Warning: Removed 41 rows containing missing values (geom_point).
## Warning: Removed 41 rows containing non-finite values (stat_boxplot).
## Warning: Removed 41 rows containing non-finite values (stat_summary).
## Warning: Removed 42 rows containing missing values (geom_point).
## Warning: Removed 9 rows containing non-finite values (stat_boxplot).
## Warning: Removed 9 rows containing non-finite values (stat_summary).
## Warning: Removed 9 rows containing missing values (geom_point).
## Warning: Removed 58 rows containing non-finite values (stat_boxplot).
## Warning: Removed 58 rows containing non-finite values (stat_summary).
## Warning: Removed 59 rows containing missing values (geom_point).
##
## Call:
## lm(formula = as.numeric(quality) ~ alcohol, data = rwineqa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.8442 -0.4112 -0.1690 0.5166 2.5888
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.12503 0.17471 -0.716 0.474
## alcohol 0.36084 0.01668 21.639 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7104 on 1597 degrees of freedom
## Multiple R-squared: 0.2267, Adjusted R-squared: 0.2263
## F-statistic: 468.3 on 1 and 1597 DF, p-value: < 2.2e-16
## fixed.acidity volatile.acidity citric.acid
## 0.12405165 -0.39055778 0.22637251
## log10.residual.sugar log10.chlorides free.sulfur.dioxide
## 0.02353331 -0.17613996 -0.05065606
## total.sulfur.dioxide density pH
## -0.18510029 -0.17491923 -0.05773139
## log10.sulphates alcohol
## 0.30864193 0.47616632
No teste de correlacao, os atributos que apresentaram forte correlação com ‘quality’ foram: 1.alcohol 2.sulphates(log10) 3.volatile acidity 4.Citric Acid
Better wines seem to have lower densities. But then again, this may be due to the higher alcohol content in them.
Entre density and alcohol, sendo uma correlacao negativa, pois uma quantidade de alcool indica menos densidade do vinhos, que concentrou menos açucares, e os acidos também apresentaram uma forte correlação com ‘pH’, estas relações possuim consenso comum.
Destaque para ‘alcohol’ com quality
Inserindo novos atributos no gráfico e tendo ‘alcohol’ como uma constante, para entender se os demais atributos inferem na qualidade do vinho
Alcohol combinado com maior concentração de ‘sulphates’ combinam em um bom vinho
‘alcohol’ com baixa concentração de ‘volatile.acidity’ contribuem para um bom vinho
Baixo ‘pH’ juntamente com concentração alta de ‘alcohol’ representam bons vinhos.
‘residual.sugar’ tem pouca correlação com nível mais alto de ‘alcohol’
‘total.sulfur.dioxide’ tem baixa correlação com ‘alcohol’, mas contribui para bons vinhos
Já que acidos tiveram um forte correlação com a qualidade, analisei suas correlações
alta concentração de ‘citric.acid’ com baixa low ‘volatile.acid’ contribuem para um bom vinho.
baixa correlação, mas concentração baixa de ‘fixed.acidity’ contribue para um bom vinho
baixa correlação também, porém os dois em baixa concentração contribuem melhor para um bom vinho
A influencia do ‘citric.acid’ surpreendeu bastante, incluse na correlação com os demais acidos e destaque também para a baixa concentração de ‘volatile.acidity’. Alcool continua sendo o atributo de maior influencia, porém relacionado com nível baixo de Sulphates, apresentou um bom indicador de influencia na qualidade dos vinhos.
Destaque para ‘ciric.acid’ que tanto relacionando com o atributo de forte correlação com qualidade, que é o ‘alcohol’, nas interações com os demais acidos, também com alta concentração, se mostrou bem influente.
Alcool demonstrou forte influencia em várias análises e visto que a maior parte dos vinhos tiveram qualidade média, pode-se notar que o alcool teve maior concentração de destaque no meio do gráfico.
## Warning: Removed 8 rows containing non-finite values (stat_smooth).
## Warning: Removed 8 rows containing missing values (geom_point).
Baixa concentração de Sulphate também tem destaque na interação com alta concentração de Alcool para produzir vinhos de qualidade. A baixo inclinação no eixo horizontal é porque a influencia do Sulphate na qualidade dos vinhos tem poucos níveis de medida em relação ao alcool.
Apresentei 4 atributos com fortes representação nos testes em gráficos de dispersão, novamente podemos observar como em gráficos anteriores que o nível de Alcohol alto e baixo Sulphates, geram alto impacto na qualidade, já o Acido Citrico teve boas iterações com os outros atributos na análise da qualidade, mas nunca com forte correlação.
#Reflexão
No meu trabalho após entender quais eram o atributos com forte correlação direta com a qualidade dos vinhos, tendo o Alcohol como ator principal e sabendo que esta propriedade puramente não definiria um bom vinho, procurei explorar a relação destes coma as demais propriedades.
Na análise bivarial, cruzei com vários atributos, encontrei uma interessante relação do Alcohol com maior concentração de Sulfates e um inverso quando relacionado com Volatile Acidity, estes dois atributos para mim tiveram fortes influencias.
Fiz uma tentativa de investigar a influência dos acidos na qualidade dos vinhos, removendo o atributos de destaque da visão, neste momento achei a influencia do Citric Acid bem interessante.
Visto que boa parte deste conjunto de dados, os vinhos foram classificaos dentro da média de qualidade, procurei pautar minhas decisões primeiramente na média de qualidade, analisando as correlações fortes.